实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩
实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
搜索
Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。
刚刚被 SpaceX 宣布以 600 亿美元收购的 Cursor,发布大模型了。本周二,Cursor 宣布了一个新的 1.5 万亿 + 参数模型,该模型在超过 10 万块 GPU 上进行了预训练。消息是在旧金山举行的 Cursor Compile 上宣布的,这是 Cursor 举办的首届旗舰大会。
如今的 AI Agent 正在大规模落地,其中应用最广且最受关注的当数 Claude Code,Codex,Cursor 这类 coding agent。过去的一年里,这类 coding agent 产品迭代迅速,在一年内将在 swe-bench- verified 的准确率提高到了 78%+。
Cursor 正式接入 Claude Opus 4.7 Fast mode——同一个旗舰模型,拆出两个速度档。快 2.5 倍,贵 6 倍,输出价每百万 token 150 美元。最离谱的是,Cursor 官方在发布当天就建议:多数任务请用标准速度。
俺做滴 我做了一个给 Agent 用的网盘,叫 neuDrive.ai,开源的 你在 Claude、Codex、Cursor 这些工具里攒下来的 skill、记忆、文件,可以通过 neuDrive 一键备份、相互同步
上个月刚充了 ChatGPT Plus,这个月又买了Cursor Pro,OpenClaw 也研究的差不多了。我们对 AI 的期待,说起来非常简单:给最好的方案、最准确的代码、最精确的回答。
最近几个月,Vibe Coding(氛围编程)是一大刷屏热词。以 Cursor 和 Claude Code 为代表的一批工具,正在将软件开发效率推向新的高度。
新鲜大瓜!Cursor 3.0实锤套壳Claude Code。当Cursor 3.0被开发者一层层拆开,大家才猛然发现:这场翻车真正刺痛行业的,不是它用了Claude,而是它试图把别人的大脑,包装成自己的灵魂。
昨晚,一个 X 上的泄露账号曝光了 Claude Code 即将上线的更新:截图验证、安全扫描、设计探索、暗黑模式、登录系统、跨多个代码仓库的统一工作界面。网友们的评价是:「这可能是 Lovable 的全栈竞争对手」,危险危险危险。
今天早上,Cursor 在X上发布一条推文:“我们重建了 MoE 模型在 Blackwell GPU 上生成 Tokens 的方式,导致推理速度快了 1.84 倍。”